Neverovatno - ChatGPT “pao” test znanja: AI model generisao 79% netačnih informacija!
Briljantno, ali nepouzdani ljudi česta su pojava u istoriji. Ista korelacija mogla bi da važi i za veštačku inteligenciju, prema istrazi OpenAI‑ja o kojoj piše New York Times. Halucinacije, izmišljene činjenice i otvorene laži prisutne su kod AI četbotova otkako postoje, a poboljšanja modela teoretski bi trebalo da smanje njihovu učestalost.
OpenAI‑jevi najnoviji vodeći modeli, GPT o3 i o4‑mini, zamišljeni su da oponašaju ljudsku logiku. Za razliku od prethodnih verzija, koje su se uglavnom fokusirale na tečno generisanje teksta, GPT o3 i o4‑mini trebalo bi da "razmišljaju korak po korak".
OpenAI se hvalio da o3 može da dostigne ili nadmaši rezultate doktoranata iz hemije, biologije i matematike. Međutim, izveštaj OpenAI‑ja otkriva zastrašujuće podatke za svakoga ko odgovore ChatGPT‑a uzima zdravo za gotovo.
Udeo halucinacija i do 79%
OpenAI je otkrio da je GPT o3 halucinirao u trećini zadataka iz referentnog testa o javnim ličnostima - dvostruko više nego prošlogodišnji model o1. Kompaktniji o4‑mini bio je još gori, sa halucinacijama u 48% sličnih zadataka.
Kada su modeli testirani opštim pitanjima iz SimpleQA testa, udeo halucinacija skočio je na 51% kod o3 i 79% kod o4‑mini. To nije samo mala greška u sistemu, to je prava kriza identiteta. Pomislili biste da bi sistem koji se reklamira kao "razuman" barem dvaput proverio nešto pre nego što to izmisli - ali to jednostavno nije slučaj.
"Možda su samo opširniji u odgovorima"
Jedna teorija koja kruži AI zajednicom kaže da što više model "razmišlja", to ima više prilika za greške. Za razliku od jednostavnijih modela koji se drže visoko pouzdanih predviđanja, razumni modeli ulaze u prostor gde moraju da razmotre više pravaca, povežu udaljene činjenice i zapravo improvizuju - a improvizacija sa činjenicama često znači izmišljanje.
OpenAI je za Times izjavio da povećani broj halucinacija možda ne dolazi iz manjkavosti razumskih modela. Umesto toga, oni bi jednostavno mogli biti opširniji i "slobodniji" u odgovorima.
Modeli treba da budu korisni, a ne opasni
Pošto novi modeli ne ponavljaju samo predvidive činjenice, već spekulišu o mogućnostima, granica između teorije i izmišljene činjenice za AI postaje nejasna. Nažalost, neke od tih "mogućnosti" potpuno su odvojene od stvarnosti.
Ipak, više halucinacija je suprotno od onoga što žele OpenAI i konkurenti poput Google-a i Anthropica. Nazvati AI četbotove "pomoćnicima" ili "kopilotima" podrazumeva da su korisni, a ne opasni. Advokati su već imali problema jer su koristili ChatGPT i nisu primetili izmišljene sudske presedane; ko zna koliko je takvih grešaka izazvalo probleme u manje rizičnim situacijama?
Što se više koristi, to je manje mesta za greške
Mogućnosti da halucinacije izazovu probleme brzo se šire kako AI ulazi u učionice, kancelarije, bolnice i državne institucije. Napredna AI može pomoći u pisanju molbi za posao, rešavanju problema sa računima ili analizi tabela, ali paradoks je u tome što - što je AI korisnija, to ima manje prostora za greške.
Ne možete tvrditi da nekome štedite vreme i trud ako on mora jednako dugo da proverava sve što ste rekli. Ne zato što ovi modeli nisu impresivni - GPT o3 je pokazao neverovatne sposobnosti kodiranja i logike, i u nekim stvarima nadmašuje mnoge ljude.
Problem nastaje onog trenutka kada odluči da je Abraham Linkoln vodio podkast ili da voda ključa na 27°C; tada se iluzija pouzdanosti raspršuje. Dok se ti problemi ne reše, na svaki odgovor AI modela treba gledati s velikom dozom skepticizma. Ponekad je ChatGPT pomalo kao osoba puna samopouzdanja dok priča gluposti, zaključuje izveštaj.
Video: Mladi ljubavne probleme sve više rešavaju preko ChatGPT-a
Izvor: Index/Kurir